物理 AI 的早期答案,可能先出现在工厂里
物理 AI 的早期答案,可能先出现在工厂里ElevenLabs的声音克隆和长文本音频生成质量确实很好,但也太贵了。
搜索
ElevenLabs的声音克隆和长文本音频生成质量确实很好,但也太贵了。
OpenAI 公开介绍 Computer-Using Agent 时,讲的也是这个方向:模型针对图形界面交互做过训练,能把屏幕理解、任务目标和鼠标键盘动作接起来。鼠标会动只是表面。遇到按钮位置变化、弹窗多一层、页面慢一点时,它还能重新看屏幕,继续判断下一步。
当对话型 AI 服务于数十亿用户时,我们能否看见用户没说出口的那一层?JHU、MIT 和 Google Research 给出了新的解法。
有一个我们很少说出口的预设:AI 带来的恐慌是从下往上递减的。越底层越慌,越顶层越从容。应届生最危险,大厂高管有把握,基础模型公司的人?他们是在写未来,不是在应对它。
今天,又有新的问题出现了,这一次是谷歌搜索。有用户发现,近日升级了 AI 能力的谷歌搜索在面对「google 里面有几个 P」这样的简单问题时竟然失败了!这件事引发广泛关注和测试热潮。我们也简单试了下,就算用汉语提问,谷歌搜索同样错误,而且还自行加戏,导致错上加错 —— 说 Pixel 里面有两个 P
收到面壁智能的内测邀请,我翻了翻产品逻辑,发现它想解决的问题和我当时的处境一模一样。AI 能不能不只是回消息,而是做项目。AI 能不能记住规则,能在你睡觉的时候继续干活,能自己发现你漏了什么。
就在今天,科大讯飞在澳门发布了旗下首款 AI 眼镜。这副 40 克的眼镜没有卷像素、卷全彩大屏、卷时尚联名,把核心能力押注在一个看起来十分常见的能力上——翻译。
Devin 证明,独立 Vibe Coding 平台依然有机会。
5 月 22 日,《一人之下》第 763 话更新,国漫圈这回吵得有点凶。
Zero Trust 是一套安全架构,核心前提很简单:不信任任何东西,必须验证一切